Unicode Normalize
パス整合だけで見ていたら、
google-drive-ocamlfuse
みたいな中間ツールを挟んだときにある程度勝手に正規化され、手元の元データとのズレが発生したりする。
code:python
import unicodedata
unicodedata.normalize("NFKC")
code:js
"あばばばば".normalize("NFKC")
NFC
NFKC
NFD
NFKD
覚えられないし、特徴もわかりかねている…
参考:
正規化形式別のユニコード正規化の振る舞いの違いを見てみる | 分析ノート
#unicode
#テキストクレンジング